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(54) Title: METHOD FOR SIGNALLING A NOISE SUBSTITUTION DURING AUDIO SIGNAL CODING 



(54) Bezdchnung: VERFAHREN ZUM SIGNALISIEREN EINER RAUSGHSUBSTITUnON BEIM CODIEREN EINES AUDIOSIG- 
NALS 



(57) Abstract 



The invention relates to a method for signalling a noise substitution during audio signal coding. AccoTding to said method, the audio 
signal is iiist tiansfonned in die frequoicy range to obtain spectral values. Hie spectral values are subsequendy grouped to fonn spectral 
value groups. On the basis of a detection whether a group of spectral values is a noise group or not, a coding table is allocated to a 
non-noise group or a tonal group by means of a coding table number for redundancy coding <k the same. If a group is a noise group it 
is allocated an additional coding table number which does not refer to a coding table in order to signal that this group is a noise group 
and that it must not be redundancy coded. By signalling noise substitution by means of a Huffman-code table number for noise groups 
of spectral values which are for instance scale factor band sections and which must not be redundancy coded, an opportunity is provided 
for implementing availability of a noise substitution in a scale factor band in the bit flow syntax of the MPE&-2 Advanced Audio coding 
Standud, without intervening in the basic coding structure and widiout having to touch the structure of the existing bit flow syntax. 

(57) Ziisanunenfassung 

Bei einem Veifahren zum Signalisieren einer Rauschsubstitution beim C^odieren eines Audiosignals wird das zeitliche Audlosignal 
zuerst in den Frequenzbereich transformiert, um Spelctralwerte zu eihalten. Die Spektralwerte werden anschliefiend in Gruppen von 
Spelctralweiten gruppiert. Aufgrund einer Erfassung, ob eine Oruppe von Spektralwerten eine rauschhafte Giuppe ist oder nicht, 
wild einer nicht-rauschhaften oder tonalen Gruppe mittels einer Codieitabellennummer eine Codiertabelle zum R^tmdanz-Codieren 
derselben zugewicsen. Falls eine Gruppe rauschhaft ist, wird derselben eine zusStzIiche Codieitabellennummer zugewiesen, die nicht 
auf eine Codiertabelle verweist, um zu signalisieren, daB diese Gruppe rauschhaft ist und daher nicht redundanz-codiert werden muB. 
Durch Signalisieren der Rauschsubstitution durch eine Huffman-Codiertabellennummer fUr rauschhafte Gruppen von Spektralwerten, die 
Z.B. Abschnltte aus Skalenfaktorb^em sind, welche nicht redimdanz-codiert werden mUssen, ist eine M5glichkeit implementiert, das 
Vorhandensein einer Rauschsubstitution in einem Skalenfaktorband in der Bitstromsyntax des Standards MPEG-2 Advanced Audio Coding 
(AAQ zu implementieren, ohne daB in die grunds&tzliche Codiereistruktur eingegriffen werden muB, und ohne daB die Struktur der 
bestehenden Bitstromsyntax angetastet werden muB. 
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Vorfahren zum Signalisieren einer Rausobsubstitution belm 
Codieren elnes Audiosignals 

Beschreibuna 

Die vorliegende Erfindung bezieht sich auf Audiocodierver- 
fahren und Insbesondere auf Audiocodierverfahren nach den 
Standard ISO/MPEG, wie 2. B. MPEG-1, MPEG-2, MPEG-2 AAC, zur 
datenreduzierten Darstelliing von hochqualitativen Audio- 
signalen* 

Der Standardisierungskorper ISO/IEC JTC1/SC29/WG11, der auch 
als die Moving Pictures Expert Group (MPEG) bekannt ist, 
wurde 1988 gegriindet, uin digitals Video- und Audiocodier- 
ungsschemen fiir niedrige Datenraten zu spezif izieren. Im 
November 1992 wurde die erste Spezif ikationsphase durch den 
Standard MPEG-1 vollendet. Das Audiocodiersystem nach 
MPEG-1, das in ISO 11172-3 spezif iziert ist, arbeitet in 
einem Einkanal- oder Zveikanalstereo-Modus bei Abtastfre- 
guenzen von 32 kHz^ 44^1 kHz und 48 kHz. Der standard MPEG-1 
Layer XI liefert Rundfunkgualitat, wie sie durch die Inter- 
national Telecommunication Union spezif iziert ist, bei einer 
Datenrate von 128 kb/s pro Kanal. 

In seiner zweiten Entwicklungsphase bestanden die Ziele von 
MPEG darin, eine Mehrkanalerweiterung fur MPEG-l-Audio zu 
definieren, die zur existierenden MPEG-l-Systemen riickwarts- 
kompatibel sein sollte, und ebenfalls einen Audiocodier- 
standard bei niedrigeren Abtastfrequenzen (16 kHz, 22,5 kHz, 
24 kHz) als bei MPEG-1 zu definieren. Der rflckwartskompa- 
tible Standard (MPEG-2 BC) sowie der Standard mit niedri- 
geren Abtastfrequenzen (MPE6-2 LSF) wurden im November 1994 
vollendet, MPEG-2 BC liefert eine gute Audioqualitfit bei 
Datenraten von 640 - 896 kb/s fUr 5 KanSle mit voller Band- 
breite. Seit 1994 besteht eine weitere Anstrengung des 
MPEG-2 -Audiostandardisierungskommittees darin, einen Multi- 
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kanalstandard mit hoherer QualitSt zu definieren, als sie 
erreichbar ist, wenn eine Riickwartskompatibilitat zur MPEG-1 
gefordert wird. Dieser nicht-rtickwartskompatible Audio- 
standard gemaU MPEG-2 wird als MPEG-2 NBC bezeichnet. Das 
Ziel dieser Entwicklung besteht darin, RundfunkgualitSten 
gema& den ITU-R-Anforderungen bei Datenraten von 384 kb/s 
Oder darunter f(ir 5-kanalige Audiosignale, bei denen jeder 
Kanal die voile Bandbreite hat, zu erreichen. Der Audio- 
codierstandard MPEG-2 NBC wurde April 1997 vollendet. Das 
Schema MPEG-2 NBC wird den Kern ffir den bereits geplanten 
Audiostandard MPEG-4 bilden, velcher hShere Datenraten haben 
wird (fiber 40 kb/s pro Kanal) • Der NBC Oder nicht rfickw&rts 
kompatible Standard koxobiniert den Codierwirkungsgrad einer 
hochauf losenden Filterbank, von Pradiktionstechniken und der 
redundanzreduzierenden Huf fman-Codierung, um eine Audioco- 
dierung mit Rundfunkqualitat bei sehr niedrigen Datenraten 
zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2 
NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine 
detaillierte Darstellung des technischen Inhalts von MPEG-2 
AAC findet sich in M. Bosi, K. Brandenburg, S. Quackenbush, 
L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. 
Davidson, Yoshiaki Oikawa: ''ISO/IEC MPEG-2 Advanced Audio 
Coding", 101st AES Convention, Los Angeles 1996, Preprint 
4382. 

Eff iziente Audiocodierverf ahren entfernen sowohl Redundanzen 
als auch Irrelevanzen von Audiosignalen. Korrelationen 
zwischen Audioabtastweirten und Statistiken der Abtastwert- 
darstellung werden ausgenutzt, um Redundanzen zu entfernen. 
Frequenzbereichs- und Zeitbereichsmaskierungseigenschaften 
des menschlichen Gehorsystems werden ausgenutzt, vua nicht- 
wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der 
Frequenzgehalt des Audiosignals wird mittels einer Filter- 
bank in TeilbSnder unterteilt. Die Datenratenreduktion wird 
erreicht, indem das Spektrum des Zeitsignals gemSiB psycho- 
akustischen Modellen quantisiert wird, und dieselbe kann ein 
ver lust loses Codierverf ahren umfassen. 
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Allgemein gesagt vird ein zeitkontinulerliches Audiosignal 
abgetastet, uiti ein zeitdiskretes Audiosignal zu erhalten. 
Das zeitdiskrete Audiosignal wird mittels einer Fenster- 
funktion gefenstert, um aufeinanderfolgende BlScke oder 
Frames rait einer bestiininten Anzahl, z. B. 1024^ gefensterter 
zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird 
jeder Block von gefensterten zeitdiskreten Abtastwerten des 
Audiosignals in den Frequenzbereich transformlert, wobei 
belspielsweise eine niodif izierte diskrete Cosinustransfor- 
mation (MDCT) verwendet werden kann. Die somit erhaltenen 
Spektralwerte sind noch nicht quantisiert und miissen demnach 
quantisiert werden. Das Hauptziel dabei besteht darin, die 
Spektraldaten derart zu quant isieren, daS das Quant isie- 
rungsrauschen durch die quantisierten Signale selbst mas- 
kiert oder verdeckt wird. Dazu wird ein im MPEG-AAC-Standard 
beschriebenes psychoakustisches Modell herangezogen, das 
unter Berucksichtigung der speziellen Eigenschaften des 
inenschlichen Gehors abhangig von dem vorliegenden Audiosi- 
gnal Maskieirungsschwellen berechnet. Die Spektralwerte wer- 
den nun derart quantisiert, da£ das eingeftihrte Quantisie- 
rungsrauschen versteckt und somit unh5rbar wird. Das Quan- 
tisieren fiihrt also zu keinem hSrbaren Rauseflien. 

In dem NBC-Standard wird ein sog. ungleichformiger Quanti- 
sierer verwendet. Zusatzlich wird ein Verfahren verwendet, 
um das Quantisierungsrauschen zu formen. Das NBC-Verfahren 
verwendet wie auch vohergegenene Standards die einzelne 
Verstarkung von Gruppen von Spektralkoef f izienten, welche 
als SkalenfciktorbSnder bekannt sind. Um so effizient wie 
moglich zu arbeiten, ist es wUnschenswert , in der Lage zu 
sein, das Quantisierungsrauschen in Einheiten zu formen, die 
an die Frequenzgruppen des menschlichen GehSrsystems mSg- 
lichst angelehnt sind. Es ist somit moglich, Spektralwerte 
zu gruppieren, welche die Bandbreite der Frequenzgruppen 
sehr eng wiedergeben. Einzelne SkalenfaktorbMnder kdnnen 
mittels Skalenfaktoren in Stufen von 1,5 dB verst&rkt 
werden. Die Rauschformung wird erreicht, da verstSrkte 
Kbeff izienten groBere Amplituden haben. Daher werden sie im 
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allgemeinen ein hSheres Signal /Rausch-VerhSltnis nach der 
Quant is ierung zeigen. Andererseits benStigen grdSere 
Amplituden mehr Bits zur Codierung, d, h. die Bitverteilung 
zwischen den Skalenf aktorbandern wird implizit verandert. 
Selbstver standi ich muB die Verstarkung durch die Skalenf ak- 
toren im Decodierer korrigiert werden. Aus diesem Grund mtis- 
sen die Verstarkungsinformationen, die in den Skalenfaktoren 
in Einheiten von 1,5 dB-Schritten gespeichert sind, als Sei- 
teninformationen zu dem Decodierer fibertragen werden. 

Nach der Quantisierving der in Skalenfaktorbandern vorliegen- 
den ggf . durch Skalenfaktoren verstarkten Spektralwerte sol- 
len dieselben codiert werden. Das Eingangssignal in ein 
rauschloses Codiermodul ist somit der Satz von beispiels- 
weise 1024 quant isierten Spektralkoef f izienten. Durch das 
rauschlose Codienaodul werden die satze von 1024 quantl- 
sierten Spektralkoef f izienten in Abschnitte oder "Sections" 
eingeteilt, derart, daB eine einzige Huf fman-Codiertabelle 
("Codebook") verwendet wird, um jeden Abschnitt zu codieren. 
Aus Codiereff izienzgrtinden konnen Abschnittsgrenzen nur an 
Skalenf aktorbandgrenzen vorhanden sein, derart, daB fiir 
jeden Abschnitt oder "Section" des Spektruins sowohl 'die 
Lange des Abschnitts in Skalenfaktorbandern als auch die 
Huffman-Codiertabellennuiumer, die fiir den Abschnitt ver- 
wendet wird, als Seiteninfonaationen tibertragen werden 
mtissen. 

Das Bilden der Abschnitte ist dynamisch und variiert typi- 
scherweise von Block zu Block, derart, daB die Anzahl von 
Bits, die benotigt werden, um den vollen Satz von quanti- 
sierten Spektralkoef f izienten deurzustellen, minimiert wird. 
Die Huffiaan-Codierung wird verwendet, uro n-Tupel von quan- 
tisierten Koeff izienten darzustellen, wobei der Huffman-Code 
von einem von 12 Codiertabellen abgeleitet wird. Der maxi- 
male absolute Wert der quant isierten Koeff izienten, der von 
jeder Huffman-Codiertabelle dargestellt werden kann, und die 
Anzahl von Koeff izienten in jedem n-Tupel fttr jede Codierta- 
belle sind a priori festgelegt. 
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Der Sinn des Bildens der Abschnitte oder Sections besteht 
also darin, Bereiche mit gleicher Signalstatistik zu grup- 
pieren, lun laittels einer einzigen Huf fman-Codiertabelle fUr 
eine Section einen moglichst hohen Codiergewinn zu errei- 
Chen, wobei der Codiergewinn allgemein durch den Quotienten 
aus Bits vor der Codierung und Bits nach der Codierung de- 
finiert ist. Mittels einer Codiertabellennuxamer ("Codebook- 
number"), die in der ftir das NBC-VerfeOiren verwendeten Bit- 
stromsyntax festgelegt ist,. wird auf eine der 12 Huffman-Co- 
diertabellen verwiesen, welche fur einen speziellen Ab- 
schnitt den hochsten Codiergewinn ermoglicht. Der Ausdruck 
"Codiertabellennummer" soli in dieser Anneldung somit den 
Platz in der Bitstromsyntax bezeichnen, der fiir die Codier- 
tabellennummer reserviert ist. Urn 11 verschiedene Codierta- 
bellennummern binar zu codieren, warden 4 Bit benotigt. Die- 
se 4 Bit miissen fur jeden Abschnitt, d. h. fiir jede Gruppe 
von Spektralwerten, als Seiteninformationen libertragen war- 
den, damit der Decodierer zum Decodieren die entsprechende 
korrekte Codiertabelle auswShlen kann. 

Eine weitere Technik, die neuerdings Beaditung findet, ist 
die "Rauschsubstitution*' , deren Aspekte ausftihrlich in Do- 
nald Schulz: "Improving Audio Codecs by Noise Substitution", 
Journal of the Audio Eng. Soc., Bd. 44, Nr. 7/8, S. 593 - 
598, Juli/August 1996, beschrieben sind. Wie bereits erwahnt 
wurde, verwenden herkommliche Audiocodieralgorithmen tibli- 
cherweise Maskierungsef fekte des menschlichen Ohrs, um die 
Datenrate Oder die Anzahl von zu tlbertragenden Bits ent- 
scheidend zu reduzieren. Haskierung bedeutet also, dafi eine 
Oder mehrere Freguenzkomponenten als Spektralwerte andere 
Komponenten mit niedrigeren Pegeln unhSrbar machen. Dieser 
Ef fekt kann auf zwei Arten und Weisen ausgenutzt werden. 
Zuerst miissen Audiosignalkomponenten, die durch andere 
Komponenten maskiert werden, nicht codiert werden. Zweltens 
ist das Einfiihren von Rauschen durch die eben beschriebene 
Quantisierung erlaubt, wenn dieses Rauschen durch Kompo- 
nenten des ur sprung lichen Signals verdeckt wird. 
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Bei rauschhaften Signalen ist das menschliche Gehorsystem 
nicht in der Lage, den exakten Zeitverlauf eines solchen 
Signals zu erfassen. Bei ublichen Algorithmen fiihrte dies 
dazu, daB sogar die Wellenform des weiBen Rauschens, welche 
ftir das menschliche Gehor nahezu irrelevant ist, codiert 
wurde. Ein gehorrichtiges Codieren von rauschhaltigen 
Signalen erfordert daher hohe Bitraten fUr Informationen, 
die nicht horbar sind, wenn keine speziellen Vorkehrungen 
getroffen werden. Falls jedoch rauschhaltige Komponenten von 
Signalen erfaBt und mit Inf ormationen fiber ihre Rauschpegel, 
Uber ihren Frequenzbereich oder iiber ihren zeitlichen Aus- 
dehnungsbereich codiert werden, kann eine solche tlberf liissi- 
ge Codierung verringert werden, was zu auBerordentlich 
groBen Biteinsparungen fiihren kann. Diese Tatsache wird 
durch die Psychoakustik untermauert, die besagt^ dafl der 
Wahrnehmungseindruck von Rauschsignalen primSr von deren 
spektraler Zusamraensetzung und nicht von der tatsachlichen 
Wellenform bestimmt wird. Dies ermoglicht also die Benutzung 
der Rauschsubstitutionstechnik bei der Datenreduktion von 
Audios igna len • 

Der Codierer steht daher vor der Aufgabe, in dem gesamten 
Spektrum des Audiosignals rauschartige oder rauschhafte 
Spektralwerte zu finden bzw. zu erkennen. Eine Definition 
ftir rauschhafte Spektralwerte lautet wie folgt: Wenn eine 
Signalkomponente durch ihren Pegel, durch ihren Frequenzbe- 
reich und durch ihren zeitlichen Ausdehnungsbereich derart 
charakterisiert werden kann, daB sie ohne horbare Unter- 
schiede ftir das menschliche Gehorsystem durch ein Rauscher- 
setzungsverfahren rekonstruiert werden kann, wird diese 
Signalkomponente als Rauschen klassif iziert. Die Erfassung 
dieser Charakteristik kann entweder im Frequenzbereich oder 
im Zeitbereich durchgefiihrt werden, wie es in der zuletzt 
zitierten VerSffentlichung dargestellt ist. Das einfachste 
Verfahren besteht beispielsweise darin, tonale, d. h. nicht 
rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre- 
quenz-Transformation verwendet wird, und indem stationare 
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Spitzen in zeitlich aufeinanderfolgenden Spektren verfolgt 
werden. Diese Spitzen werden als tonal bezeichnet, alles 
andere wird als rauschhaft bezeichnet. Dies stellt jedoch 
eine relativ grobe Rauscherfassung dar. Eine veitere Mog- 
lichkeit, zwischen rauschhaften und tonalen Spektralkom- 
ponenten zu unterscheiden, besteht in der Verwendung eines 
Pradiktors fttr Spektralwerte in aufeinanderfolgenden 
Blocken. Dabei wird eine Prfidiktion von einem Spektrum zu 
dem folgenden Spektrum, d. h. dent Spektrum, das dem n&chsten 
zelt lichen Block oder Frame zugeordnet ist, durchgefiihrt. 
Unterscheidet sich ein pradizierter Spektralwert von einem 
tatsSchlich durch Transformation ermittelten Spektralwert 
des nachsten zeitlichen Blocks oder Frames nicht oder nur 
wenig^ so wird da von ausgegangen, daB es sich bei diesem 
Spektralwert um eine tonale Spektralkomponente handelt. 
Daraus kann ein TonalitatsmaB/xabgeleitet werden, dessen Wert 
einer Entscheidung zugrundeliegt, um tonale und rauschhafte 
Spektralwerte voneinander zu unterscheiden* Dieses Erfas- 
sungsverfahren ist jedoch lediglich filr streng stationSre 
Signale geeignet. Es versagt dabei, Situationen zu erfassen, 
bei denen Sinussignale mit gering verMnderten Frequenzen 
uber der Zeit vorhanden sind. Solche Signale erscheinen oft 
in Audioslgnalen, wie z. B. Vibratos, und es ist ftir den 
Fachmann of fensichtlich, daB diese nicht durch eine rausch^ 
hafte Komponente ersetzt werden konnen. 

Eine weitere Moglichkeit zur Erfassung von rauschhaften 
Signalen besteht in der Rauscherfassung durch PrSdiktion im 
Zeitbereich* Hierfttr eignet sich ein angepaBtes Filter als 
PrSdlktor, welcher wiederholt angewendet werden kann, um 
eine linear e PrMdiktion durchzufilhren, wie es in der Technik 
hinreichend bekannt ist. Vergangene Audiosignale werden ein- 
gespeist und das Ausgangssignal wird mit dem tats&chlichen 
Audioabtastwert verglichen. Im Fall eines kleinen Pradikti- 
onsfehlers kann Tonalitat angenommen werden. Um den Charak- 
ter unterschiedlicher Prequenzregionen zu bestimmen, d. h. 
um den Spektralbereich zu erfassen, ob eine Gruppe von Spek- 
tralwerten eine rauschhafte Gruppe ist, mtissen Zeit-Fre- 
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quenz-Transformationen sowohl des urspriinglichen als auch 
des pradizierten Signals durchgefUhrt werden. Dann kann fttr 
jede Frequenzgruppe ein Tonal itatsmaB berechnet werden, in- 
dem die urspriinglichen und die prSdizierten Werte mit- 
einander verglichen werden. Ein Hauptproblem dabei ist der 
begrenzte dynamische Bereich des PrSdiktors, Eine rausch- 
hafte Frequenzgruppe mit einem hohen Pegel doiainiert den 
PrSdiktor aufgrund des resultierenden groBen Fehlers. Andere 
Frequenzregionen mit tonalen Koxaponenten konnten als rausch- 
haft interpret iert werden* Dieses Problem kann durch Verwen- 
dung eines iterativen Algorithmus verringert werden, bei dem 
das Fehlersignal normalerweise einen geringeren Pegel als 
das Ursprungssignal hat und wieder durch einen weiteren PrS- 
diktor eingespeist wird, wonach beide prSdizierten Signale 
addiert werden. Weitere Verfahren sind in der Veroffentli- 
chung von Schulz ausgefiihrt. 

Die nun als rauschhaft klassif izierte Gruppe von Spektral- 
werten wird nicht wie tiblich quantisiert und Entropie- bzw. 
Redundanz-codiert (mittels beispielsweise einer Huffman-Ta- 
belle) zum EmpfSnger iibertragen. Stattdessen wird nur eine 
Kennung zur Anzeige der Rauschsubstitution sowie ein Mafi fUr 
die Energie der rauschhaften Gruppe von Spektralwerten als 
Seiteninfozrmationen iibertragen. Im Empfgnger werden dann ftir 
die substituierten Koeff izienten Zufallswerte (Rauschen) mit 
der iibertragenen Energie eingesetzt. Die rauschhaften Spek- 
tralwerte werden also durch Zufallsspektralwerte mit ent- 
sprechendem EnergiemaB substituiert. 

Durch die tibertragung einer einzigen Energieinformation an- 
stelle einer Gruppe von Codes, d* h. mehrerer quantisierter 
und codierter Spektralwerte, fttr die quantisierten Spektral- 
koeff izienten sind erhebliche Dateneinsparungen mdglich. Es 
ist offensichtlich, daB die erreichbaren Datenrateneinspa- 
rungen vom Signal abhangen. Handelt es sich z. B. urn ein 
Signal mit sehr wenigen Rauschanteilen, d. h. sehr wenigen 
rauschhaften Gruppen, oder mit transienten Eigenschaften, so 
wird eine geringere Datenrateneinsparung moglich sein, als 
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wenn ein sehr verrauschtes Signal mit sehr vlelen rauschhaf- 
ten Gxnippen codiert wird. 

Der eingangs beschriebene Standard MPEG-2 Advanced Audio 
Coding (AAC) unterstUtzt die Moglichkeit der Rauschsubsti- 
tution nicht. Die erheblichen Datenrateneinsparungen sind 
mit dem bisherigen Standard daher nicht moglich. 

Die Aufgabe der vorliegenden Erfindung besteht darin, den 
bestehenden Standard MPEG-2 AAC im die Hdglichkeiten der 
Rauschsubstitution derart zu erveitern, dafi weder die grand- 
satzliche Codiererstrxiktur noch die Struktur der vorhandenen 
Bitstromsyntax angetastet wird. 

Diese Aufgabe wird durch ein Verfahren zujn Signal is ier en 
einer Rauschsubstitution beim Codieren eines Audiosignals 
gemSB Anspruch 1, durch ein Verfahren zum Codieren eines 
Audiosignals gemaB Anspruch 10 und durch ein Verfahren zum 
Decodieren eines Audiosignals gemaB Anspruch 11 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
daB im Falle der Durchftihrung einer Rauschsubstitution ftir 
ein rauschhaftes Band keine Quant isierung und Redundemz- 
Codierung oder Huffman-Codierung von Spektralwerten durch- 
gefUhrt werden braucht. Stattdessen werden, wie es bereits 
beschrieben wurde, im Decodierer Rausch-Spektralwerte fUr 
eine rauschhafte Gruppe erzeugt, deren MaB ftir die Energie 
dem MaB fiir die Energie der Rausch-substituierten Spektral- 
werte entspricht. In anderen Worten werden fur rauschhafte 
Gruppen keine Codiertabellen verwendet, da keine Redun- 
danz-Codierung stattfindet. Somit ist auch die Codier- 
tabellenniuDmer, d. h. der entsprechende Platz in der Bit- 
stromsyntax des codierten Audiosignals, tiberf Itlssig. Dieser 
Platz der Bitstromsyntax, d. h. die Codiertabellennummer, 
kann nun gemHB der vorliegenden Erfindung dazu verwendet 
werden, anzuzeigen, daB eine Gruppe rauschhaft ist und einer 
Rauschsubstitution unterzogen wird. Da, wie es ebenfalls 
erwahnt wurde, lediglich 12 Codiertabellen vorgesehen 
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verden, der Platz in der Bitstromsyntax jedoch 4 Bit 
betrSgt, lait denen insgesamt ein Zahlenbereich von 0-15 
binSr dargestellt werden kann, exist ieren sog. zusStzliche 
Codiertabellennuiamern, die auf keine Codiertabelle verwei- 
sen. Lediglich die Codiertabellennununern 0-11 verweisen 
auf eine Codiertabellennuiniaer . Bei einem bevorzugten Aus- 
fOhrungsbeispiel der vorliegenden Erfindung wird die Co- 
diertabellennummer 13 verwendet, iiin dem Decodierer zu si- 
gnalisieren, daB die Gruppe, die in ihren Seiteninf orma- 
tionen die Codiertabellennummer 13, d. h. die zusStzliche 
Codiertabellennuiniaer, aufweist, eine rauschhafte Gruppe ist 
und einer Rauschsubstitution unterzogen worden ist. Fiir 
Fachleute ist es jedoch of fensichtlich, daB auch die zu- 
satzliche Oder freie Codiertabellennuminer 12, 14 Oder 15 
eingesetzt verden kann. 

Wie es bereits weiter vorne dargestellt wurde, konnen die 
Spektralwerte, die nach einer Frequenzbereichstransfonaation 
des zeitlichen Audiosignals vorhanden sind, in Skalenf aktor- 
bander gruppiert werden, um eine optimale Maskierung des 
Quantisieningsrauschens zu erreichen. Bei dem Standard 
MPEG-2 AAC sind zusStzlich mehrere Skalenfaktorbander in 
Abschnitte oder "Sections" gruppiert. Eine Section besteht 
daher zumeist aus mehreren SkalenfaktorbSndern. Das heiBt, 
daB eine Rauschsubstitution immer ftlr eine ganze Section 
signalisiert wird, d. h. ob die Rauschsubstitution aktiv 
Oder nicht aktiv ist. Aufgrund der Tatsache, daB die rausch- 
haften Skalenfaktorbander nicht quantisiert werden, milssen 
auch keine Skalenf aktoren fiir dieselben berechnet oder 
Ubertragen bzw. codiert werden. Das heiBt, daB zusStzlich zu 
der Codiertabellennummer, welche die Rauschsubstitution an 
sich anzeigt, eine weitere Stelle im Bitstrom frei ist, 
welche anderweitig besetzt werden kann. Bei dem bevorzugten 
Ausftihrungsbeispiel der vorliegenden Erfindung wird an die 
Stelle, die ftir den Skalenf aktor in den Seiteninf ormationen 
zu einem Skalenf aktorband vorgesehen ist, ein MaB fUr die 
Energie der ersetzten Spektralkoeff izienten geschrieben. Wie 
es bereits erwShnt wurde, hSngt die Wahrnehmung von Rausch- 
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signalen priiaar von deren spektraler Zusanmensetzung und 
nicht von deren tatsachlicher Wellenform ab. Aus den Spek- 
tralverten eines rauschhaften Skalenfaktorbandes wird somit 
eln MaB fiir die Energie der Spektralwerte in dem rauschhaf- 
ten Skalenf aktorband berechnet. Diese GrSfie wird anstelle 
des Skalenfaktorbandes in die Seiteninformationen einge- 
tragen, ohne daB zusStzliche Seiteninformationen benotigt 
werden oder die Struktur der Bitstromsyntax verandert werden 
muB. Diese zu Ubertragende Gr5fie kann entweder die Gesamt- 
energie der Spektralwerte in einem rauschhaften Skalenfak- 
torband sein oder die mittlere Energie, die beispielsweise 
auf einen Spektralwert oder eine Spektrallinie in dem Ska- 
lenf aktorband normiert ist. Bei dem bevorzugten Ausfiih- 
rungsbeispiel der vorliegenden Erfindung wird jedoch nicht 
die mittlere Energie sondern die Gesamtenergie als Mafi ftir 
die Energie verwendet. 

Fiir die Ubertragung des MaBes fur die Energie der ersetzten 
Spektralwerte wird vorzugsweise die gleiche Auflosung ver- 
wendet, wie sie zur inversen Skalierung der iibertragenen 
spektralen Daten verwendet wird, d, h. eine logarithmische 
Skalierung mit einer AuflSsung von 1,5 dB beim AAC-Standard. 
£hnlich wie beim Layer-III-Verfahren wird beim AAC-Verfahren 
zur Rekonstruktion der nicht-rauschhaften, d. h. tonalen, 
Spektralanteile a) die inverse Kennlinie des nichtlinearen 
Quantisierers auf den guantisierten Wert (X) der Spektralli- 
nie angewendet (Y = X^^^) , und dann b) eine "inverse Skalie- 
rung" entsprechend der iibertragenen Skalenf aktoren durchge- 
fiihrt. (Z = Y X 2<5''/*>), wobei SF der Skalenfaktor des je- 
weiligen Skalenfaktorbandes ist, und wobei Z den requanti- 
sierten Spektralwert darstellt. Die Auflosung betrMgt somit 
1,5 dB. 

Bei dem Verfahren zum Slgnalisieren einer Rauschsubstitution 
beim Codieren eines Audiosignals gem&B der vorliegenden 
Erfindung, bei dem fiir ein rauschhaftes Skalenf aktorband 
kein Skalenfaktor benStigt wird, sondern stattdessen das Hafi 
fiir die Energie der substituierten Spektralwerte eingesetzt 
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wird, werden die selben Codiergesetze fUr das NaB fUr die 
Energie der substituierten Spektralwerte eingesetzt wie sie 
sonst beim Skalenfaktor zur Anwendung kommen wUrden, Dies 
stellt eine vorteilhafte Nutzung bereits Vorhandener Resour- 
cen im AAC-Codierer dar und erfordert keinerlei zusStzliche 
Seiteninf ormationen . 

Eine weitere vorteilhafte Anwendung der Signalisierung der 
Rauschsubstitution ist bei Stereoaudiosignalen gegeben. Das 
menschliche Ohr ist in der Lage, eine Korrelation zwischen 
den Signalen bzw. KanSlen (L und R) eines Stereokanalpaars , 
welches bei AAC als "Channel Pair" bezeichnet wird, bis zu 
einem gewissen Grad wahrzunehmen. Daher sollte auch im Falle 
einer Rauschsubstitution die Korrelation zwischen den beiden 
ersetzten bzw. substituierten Rauschsignalen des Kanalpaars 
ahnlich zu der des Originalsignals sein. Skalenfaktorbander 
iin linken und im rechten Kanal, welche die gleiche Mitten- 
frequenz haben, konnen beide rauschsubstituiert werden, wenn 
eine Rauschhaftigkeit erkannt wird. Werden beide Kanale 
rauschsubstituiert, und werden keine weiteren Vorkehrungen 
getroffen, so haben die im Codierer zufSllig erzeugten 
Rausch-Spektralwerte zwar die gleiche Gesamtenergie wie im 
ursprttnglichen Audiosignal, dieselben sind jedoch aufgrund 
des zufailigen Erzeugens vollig unkorreliert. Dies kann 
unter bestimmten Umstanden zu horbaren Fehlern fiihren. Um 
dies zu vermeiden ist es moglich, die selben zufallig er- 
zeugten Rausch-Spektralwerte eines Skalenf aktorbandes fiir 
beide Kanale zu verwenden, was einer vollstandigen Korrela- 
tion der rauschhaften SkalenfaktorbSnder des linken und 
rechten Kanals entspricht« 

Dabei wird gemSB einem bevorzugten AusfUhrungsbeispiel der 
vorliegenden Erfindung folgendermaBen vorgegangen: Ftir jedes 
Kanalpaar existiert im AAC-Standard eine sog. Mitte/Seite- 
Haske (H/S-Maske) , welche im Standard selbst als "ms__used" 
(== ms-verwendet) bezeichnet wird. Diese M/S-Maske ist ein 
Bitvektor, der bandweise anzeigt, ob zwischen den beiden 
Kanalen eine M/S-Stereocodierung angewendet worden ist. 
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welche fUr Fachleute bekannt ist und einfUhrend in J.D. 
Johnston, A.J. Ferreira: "Sum-Difference Stereo Transform 
Coding", IEEE ICASSP 1992, S. 569 - 571, und auch im MPEG- 
AAC-Standard beschrieben ist. Die M/S-Maske besteht aus ei- 
ner Anzahl von Bits, wobei jedes Bit einem Skalenf aktorband 
zugeordnet ist. Wird in einem Skalenf aktorband eine M/S-Co- 
dierung vervendet, so wird ein Signalisierungsbit in der 
M/S-Maske in den Seiteninformationen gesetzt sein, das die 
M/S-Codierung dem Decodierer mitteilt. Wird jedoch ein 
rauschhaftes Skalenfaktorband im linken sowie im rechten 
Kanal fiir die gleiche Mittenfrequenz der SkalenfaktorbMnder 
(fiir L und fUr R) erkannt, so findet selbstverstSndlich 
keine Mitte/Seite-Codierung statt. Das M/S-Bit fiir dieses 
Skalenfaktorband steht also ebenso wie die Codiertabellen- 
nvuamer und der Skalenf aktor in dem Bitstrom entsprechend der 
Bitstromsyntax zur Verfiigung, um etwas anderes zu signali- 
sieren. In diesem Fall kann das Bit der M/S-Maske fiir das 
rauschhafte Skalenfaktorband beider Kanale verwendet werden, 
um anzuzeigen, ob tilr den linken und rechten Kanal unabhSn- 
gige Rausch-Spektralwerte oder Rauschvektoren erzeugt werden 
sollen, was dem Kormalfall entsprechen wiirde, oder ob der 
gleiche Rauschvektor fiir sowohl den linken als auch rechten 
Kanal in dem rauschhaften Skalenfaktorband verwendet werden 
soli, 

Wie es fiir Fachleute bekannt ist, konnen bei nichtrausch- 
haften Skalenf aktorbandern die Skalenfaktoren mittels einer 
DifferenzGodierung codiert werden. Fiir einen entsprechenden 
Skalenfaktor in einem folgenden Skalenfaktorband muB nicht 
wieder der gesamte Wert des Skalenf eOctors codiert werden, 
sondern lediglich die Differenz desselben vom vorhergehen- 
den. Dies wird als Differenzcodierung bezeichnet. Diese 
Dif ferenzcodierung wird bei einem bevorzugten Ausfiihrungs- 
beispiel der vorliegenden Erfindung ebenfalls zum Codieren 
des Mafles fiir die Energie der Spektralanteile in einem 
rauschhaften Skalenfaktorband verwendet. Damit muB fiir ein 
folgendes Skalenfaktorband nicht wieder das gesamte MaB der 
Energie sondern lediglich die Differenz des aktuellen vom 
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vorhergehenden codiert werden, was wiederum zu Biteinsparun- 
gen Anlafi gibt. SelbstverstSndlich muB iromer ein erster Aus- 
gangswert vorhanden sein, der jedoch auch ein fester von 
vorneherein vorgegebener Wert sein kann. Dieses Verfahren 
der Differenzcodierung wird daher besonders vorteilhaft 
sein, wenn aufeinanderfolgende Skalenfaktorbander Frames 
rauschhaft sind. 
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Patentansprflche 

Verfahren zum Signalisieren einer Rauschsubstitution 
beim Codieren eines Audlosignals, mit folgenden Schr it- 
ten: 

Transformieren eines zeitlichen Audiosignals in den Fre- 
quenzbereich, um Spektralwerte zu erhalten; 

Gruppieren der Spektralwerte in Gruppen von Spektralwer- 
ten; 

Erfassen, ob eine Gruppe von Spektralverten eine rausch- 
hafte Gruppe ist; 

falls eine Gruppe nicht rauschhaft ist, Zuweisen einer 
Codiertabelle aus einer Mehrzahl von Codiertabellen zum 
Redundanz codieren der nicht rauschhaften Gruppe,. wobei 
mittels einer Codiertabellenniuniaer auf die der Gruppe 
zugewiesene Codiertabelle verwiesen vird; und 

falls eine Gruppe rauschhaft ist, Zuweisen einer zusStz- 
lichen Codiertabellennuimner , die nicht auf eine Codier- 
tabelle verweist, zu dieser Gruppe, um zu signalisieren, 
daB diese Gruppe rauschhaft ist und dsQier nicht redun- 
danz-codiert wird. 

Verfahren nach Anspruch 1, bei dem die Gruppen von Spek- 
tralwerten Abschnitte (Sections) sind, wobei eine Co- 
diertabellennuHimer fiir nicht rauschhafte Abschnitte und 
eine zusStzlich Codiertabellennummer fUr rauschhafte Ab- 
schnitte vergeben werden, 

Verfahren nach Anspruch 2, 

bei dem ein Abschnitt eines oder mehrere Skalenfaktor- 
bSnder aufweist, wobei jedem Skalenfaktorband ein Ska- 
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lenfaktor zugeordnet ist; xmd 

bei dem im Falle elnes rauschhaften Skalenf aktorbandes 
ein MaB fiir die Energie der Spektralwerte in dem rausch- 
haften Skalenfaktorband anstelle eines Skalenfaktors co- 
diert wird. 

4. Verfahren nach Anspruch 3, bei dem das MaB fiir die Ener- 
gie der Spektralwerte in einer rauschhaften Gznippe die 
auf einen Referenzwert normierte mittlere Energie der- 
selben in einem Skalenf edctorband ist. 

5. Verfahren nach Anspruch 3, bei dem das MaB fiir die Ener- 
gie die Gesamtenergie der Spektralwerte in dem rausch- 
haften Skalenfaktorband ist. 

6. Verfahren nach Anspruch 3 oder 4, bei dem zum Codieren 
des MaBes fiir die Energie der rauschhaften Spektralwerte 
in dem Skalenfaktorband die selbe Skalierung verwendet 
wird, die iiblicherweise zum Codieren eines Skalenfaktors 
eines Skalenf cdctorbandes verwendet wird, das kein 
rauschhaftes Skalenfaktorband ist. 

7. Verfahren nach einem der Anspriiche 3-6, bei dem die 
Codierung des MaBes fiir die Energie der Spektralwerte in 
rauschhaften Skalenfaktorbandern eine Dif ferenzcodierung 
ist. 

8. Verfahren nach einem der Anspriiche 1-7, 

bei dem das Audiosignal ein Stereoaudiosignal ist, 

bei dem eine Mitte/Seite-Codierung zweier Kanale des 
Stereoaudiosignals durch eine Mitte/Seite-Maske gruppen- 
weise anzeigbar ist, und 



bei dem im Fall von f reguenzmSBigen entsprechenden 
rauschhaften Gruppen beider KanSle durch die Mitte/Sei- 
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te-Naske anzeigbar ist, ob unterschiedliche Oder gleiche 
Rausch-Spektralwerte fiir beide KanSle bein Decodieren 
eines decodierten Audiosignals zu verwenden sind. 

9. Verfahren nach einem der vorhergehenden Anspriiche, bei 
dem das Erfassen, ob eine Gruppe von Spektralwerten eine 
rauschhafte Gruppe ist, mittels des zeitlichen Audiosi- 
gnals Oder mittels der Spektralwerte des zeitlichen Au- 
diosignals Oder mittels sowohl des zeitlichen Audiosi- 
gnals als auch der Spektralwerte des zeitlichen Audio- 
signals durchgeftthrt wird. 

10. Verfahren zum Codieren eines Audiosignals mit folgenden 
Schritten: 

Signal isieren einer Rauschsubstitution nach einem der 
Anspriiche 1-9; 

Berechnen eines MaBes fiir die Energie einer rauschhaften 
Gruppe; 

Eintragen des Mafies fiir die Energie in der Gruppe zuge- 
ordnete Seiteninformationen; 

Eintragen der zusatz lichen Codiertabellennummer in die 
der Gruppe zugeordneten Seiteninformationen; 

Quantisieren der nichtrauschhaften Gruppen und Codieren 
der quantisierten nichtrauschhaften Gruppen unter Ver- 
wendung der Codiertabelle, auf die durch die Codier- 
tabellennummer verwiesen wird, wahrend fUr rauschhafte 
Gruppen keine Quantisxerung oder Codierung stattfindet; 
und 

Bilden eines Bitstroms, der quantisierte und codierte 
nichtrauschhafte Gruppen sowie fur rauschhafte Gruppen 
ein MaB fiir die Energie der Spektralwerte der rausch- 
haften Gruppen und die zusatz liche Codiertabellennummer 
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zur Signalisierung der rauschhaften Gruppen aufvelst. 

11 « Verfahren zim Decodieren eines codierten Audlosignals 
mit folgenden Schritten: 

Empfangen eines Bltstroms; 

Redundanz-Decodieren von nichtrauschhaften Gruppen auf- 
grund einer durch eine Codiertabellenniuxmier angezeigten 
Codiertabelle und Reguantisieren von redundanz-decodier- 
ten, quantisierten Spektralwerte; 

Erfassen einer rauschhaften Gruppe von Spektralwerten 
aufgrund einer zusatzlichen Codiertabellennummer , die 
einer solchen Gruppe zugeordnet ist; 

Erfassen eines MaBes fur die Energie der Spektralwerte 
in der rauschhaften Gruppe aufgrund von der Gruppe zu- 
geordneten Seiteninf onaationen; 

Erzeugen von Rausch-Spektralwerten fiir die rauschhafte 
Gruppe, wobei das Kafi der Energie der Rausch-Spektral- 
werte in der rauschhaften Gruppe gleich dem Mafi fiir die 
Energie von Spektralwerten der rauschhaften Gruppe in 
dem ursprtinglichen Signal ist; 

Transformieren der reguantisierten Spektralwerte und der 
Rausch-Spektralwerte in den Zeitbereich, um ein deco- 
diertes Audiosignal zu erhalten. 

12. Verfahren gemaB Anspruch 11, bei dem das Erzeugen der 
Rausch-Spektralwerte durch Erzeugen von Zufallszahlen 
Oder durch Erhalten derselben aus einer Tabelle statt- 
findet, wobei die addierte Energie der Rausch-Spektral- 
werte dem Mafi der Energie der Spektralwerte der rausch- 
haften Gruppe des urspriing lichen Audiosignals ent- 
spr icht • 
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13. Verfahren nach Anspruch 11 oder 12, das ferner folgende 
Schritte aufveist: 

Erfassen einer Mitte/Selte-Haske fiir Stereoaudiosignale; 

auf grand der Mitte/Seite-Maske ftir Stereoaudiosignale, 
Verwenden identischer Rausch-Spektralwerte fiir entspre- 
chende rauschhafte Gruppen beider KanSle, oder Erzeugen 
zweier unabhangiger Gruppen von Rausch-Spektralwerten 
fUr bei Kan&le. 
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